Prétraitement Supervisé des Variables Numériques pour la Fouille de Données Multi-Tables
نویسندگان
چکیده
Résumé. Le prétraitement des variables numériques dans le contexte de la fouille de données multi-tables diffère de celui des données classiques individuvariable. La difficulté vient principalement des relations un-à-plusieurs où les individus de la table cible sont potentiellement associés à plusieurs enregistrements dans des tables secondaires. Dans cet article, nous décrivons une méthode de discrétisation des variables numériques situées dans des tables secondaires. Nous proposons un critère qui évalue les discrétisations candidates pour ce type de variables. Nous décrivons un algorithme d’optimisation simple qui permet d’obtenir la meilleure discrétisation en intervalles de fréquence égale pour le critère proposé. L’idée est de projeter dans la table cible l’information contenue dans chaque variable secondaire à l’aide d’un vecteur d’attributs (un attribut par intervalle de discrétisation). Chaque attribut représente le nombre de valeurs de la variable secondaire appartenant à l’intervalle correspondant. Ces attributs d’effectifs sont conjointement partitionnés à l’aide de modèles en grille de données afin d’obtenir une meilleure séparation des valeurs de la classe. Des expérimentations sur des jeux de données réelles et artificielles révèlent que l’approche de discrétisation permet de découvrir des variables secondaires pertinentes.
منابع مشابه
Khiops: outil d'apprentissage supervisé automatique pour la fouille de grandes bases de données multi-tables
Résumé. Khiops est un outil d’apprentissage supervisé automatique pour la fouille de grandes bases de données multi-tables. L’importance prédictive des variables est évaluée au moyen de modèles de discrétisation dans le cas numérique et de groupement de valeurs dans le cas catégoriel. Dans le cas d’une base multi-tables, par exemple des clients avec leurs achats, une table d’analyse individus ×...
متن کاملUn Critère d'Évaluation pour la Construction de Variables à base d'Itemsets pour l'Apprentissage Supervisé Multi-Tables
Résumé. Dans le contexte de la fouille de données multi-tables, les données sont représentées sous un format relationnel dans lequel les individus de la table cible sont potentiellement liés à plusieurs enregistrements dans des tables secondaires en relation un-à-plusieurs. Dans cet article, nous proposons un Framework basé sur des itemsets pour la construction de variables à partir des tables ...
متن کاملSélection des variables informatives pour l'apprentissage supervisé multi-tables
Résumé. Dans la fouille de données multi-tables, les données sont représentées sous un format relationnel dans lequel les individus de la table cible sont potentiellement associés à plusieurs enregistrements dans des tables secondaires en relation un-à-plusieurs. La plupart des approches existantes opèrent en transformant la représentation multi-tables, notamment par mise à plat. Par conséquent...
متن کاملPrétraitement de grands ensembles de données pour la fouille visuelle
Résumé. Nous présentons une nouvelle approche pour le traitement des ensembles de données de très grande taille en fouille visuelle de données. Les limites de l’approche visuelle concernant le nombre d’individus et le nombre de dimensions sont connues de tous. Pour pouvoir traiter des ensembles de données de grande taille, une solution possible est d’effectuer un prétraitement de l’ensemble de ...
متن کاملKhiops : outil de préparation et modélisation des données pour la fouille des grandes bases de données
Résumé. Khiops est un outil de préparation des données et de modélisation pour l’apprentissage supervisé et non supervisé. L’outil permet d’évaluer de façon non paramétrique la corrélation entre tous types de variables dans le cas non supervisé et l’importance prédictive des variables et paires de variables dans le cas de la classification supervisée. Ces évaluations sont effectuées au moyen de...
متن کامل